丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
風控與安全 正文
發(fā)私信給周蕾
發(fā)送

0

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

本文作者: 周蕾 2020-04-15 09:55 專題:金融聯(lián)邦學習公開課
導語:從“自給自足”的To C模式,到企業(yè)之間互聯(lián)互通的To B模式,再到金融、醫(yī)療、安防等全場景應用的過程。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

聯(lián)邦學習,無疑是當前最受工業(yè)界和學術(shù)界關(guān)注的人工智能研究方向之一。

近兩年,在楊強教授等世界級專家的聯(lián)合推動下,國內(nèi)外多數(shù)科技巨頭,均已開始搭建聯(lián)邦學習的研究與應用團隊。

基于此,雷鋒網(wǎng)《AI金融評論》與《AI科技評論》聯(lián)合邀請五位頂尖聯(lián)邦學習專家,啟動《金融聯(lián)邦學習公開課》。其中在昨日的首節(jié)公開課上,微眾銀行首席AI官楊強教授分享了《聯(lián)邦學習前沿與應用價值討論》。(課程全文與視頻回顧,將在公眾號《AI金融評論》發(fā)布)

今天,我們先來完整回顧下聯(lián)邦學習誕生三年來,從“自給自足”的To C模式,到企業(yè)之間互聯(lián)互通的To B模式,再到金融、醫(yī)療、安防等全場景應用的過程。

聯(lián)邦學習的誕生:一個有趣的To C設(shè)想

聯(lián)邦學習的概念,首次提出是在2017年的一篇Google AI Blog博文。

文章作者之一是Blaise Agu?ray Arcas,他2014年加入谷歌,此前在微軟任杰出工程師。加入谷歌后,Blaise領(lǐng)導了谷歌設(shè)備端on-device機器智能(Machine Intelligence)項目,同時負責基礎(chǔ)研究與新產(chǎn)品研發(fā)工作。

在他加入谷歌后不久,便開始了聯(lián)邦學習的研究。直到2017年,當他們?nèi)〉昧艘欢ǖ某晒?,才在博文中進行公布。

  • 設(shè)備上的聯(lián)邦學習

Blaise 等人(或許也在某種程度上代表谷歌)所關(guān)注的,更多是設(shè)備上的聯(lián)邦學習——這也正是聯(lián)邦學習概念被提出之初的應用場景。

由于神經(jīng)網(wǎng)絡(luò)仍然受到學習效率的限制,它需要大量的數(shù)據(jù)進行訓練,所以一些大公司,如谷歌、微軟、亞馬遜等開始提供人工智能服務(wù)時需要收集大量的數(shù)據(jù),才能去訓練大型神經(jīng)網(wǎng)絡(luò)。這也是一直以來,整個社區(qū)所做的事情。

對于設(shè)備端(例如手機)的智能應用,通常情況下的模式是,用戶在設(shè)備上產(chǎn)生的數(shù)據(jù)會被上傳到服務(wù)器中,然后由部署在服務(wù)器上的神經(jīng)網(wǎng)絡(luò)模型根據(jù)收集到的大量數(shù)據(jù)進行訓練得到一個模型,服務(wù)商根據(jù)這個模型來為用戶提供服務(wù)。隨著用戶設(shè)備端數(shù)據(jù)的不斷更新并上傳到服務(wù)器,服務(wù)器將根據(jù)這些更新數(shù)據(jù)來更新模型。很明顯這是一種集中式的模型訓練方法。

然而這種方式存在幾個問題:1)無法保證用戶的數(shù)據(jù)隱私,用戶使用設(shè)備過程中產(chǎn)生的所有數(shù)據(jù)都將被服務(wù)商所收集;2)難以克服網(wǎng)絡(luò)延遲所造成的卡頓,這在需要實時性的服務(wù)(例如輸入法)中尤其明顯。

Blaise等人便想,是否可以通過做一個大型的分布式的神經(jīng)網(wǎng)絡(luò)模型訓練框架,讓用戶數(shù)據(jù)不出本地(在自己的設(shè)備中進行訓練)的同時也能獲得相同的服務(wù)體驗。

解決之道便是:上傳權(quán)重,而非數(shù)據(jù)。

我們知道神經(jīng)網(wǎng)絡(luò)模型是由不同層的神經(jīng)元之間連接構(gòu)成的,層與層之間的連接則是通過權(quán)重實現(xiàn)的,這些權(quán)重決定了神經(jīng)網(wǎng)絡(luò)能夠做什么:一些權(quán)重是用來區(qū)分貓和狗的;另一組則可以區(qū)分桌子和椅子。從視覺識別到音頻處理都是由權(quán)重來決定的。神經(jīng)網(wǎng)絡(luò)模型的訓練本質(zhì)上就是在訓練這些權(quán)重。

那么Blaise提出的設(shè)備端聯(lián)邦學習,不再是讓用戶把數(shù)據(jù)發(fā)送到服務(wù)器,然后在服務(wù)器上進行模型訓練,而是用戶本地訓練,加密上傳訓練模型(權(quán)重),服務(wù)器端會綜合成千上萬的用戶模型后再反饋給用戶模型改進方案。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

這里或許值得強調(diào),這種在設(shè)備端上的模型是經(jīng)壓縮過的,而非像服務(wù)器中那種大型神經(jīng)網(wǎng)絡(luò)模型。因此模型訓練的耗能是非常小的,幾乎檢測不到。

此外,Blaise講了一個非常形象的比喻,即人會在睡覺的時候通過做夢來更新自己的大腦認知系統(tǒng);同樣設(shè)備終端的系統(tǒng)也可以通過閑置時進行模型訓練和更新。所以整體上,這并不會對用戶的使用體驗造成任何影響。

總結(jié)一下設(shè)備上聯(lián)邦學習的過程

  1. 設(shè)備端下載當前版本的模型;

  2. 通過學習本地數(shù)據(jù)來改進模型;

  3. 把對模型的改進,概括成一個比較小的更新;

  4. 該更新被加密發(fā)送到云端;

  5. 與其他用戶的更新即時整合,作為對共享模型的改進。

整個過程有三個關(guān)鍵環(huán)節(jié)

  1. 根據(jù)用戶使用情況,每臺手機在本地對模型進行個性化改進;

  2. 形成一個整體的模型修改方案;

  3. 應用于共享的模型。該過程會不斷循環(huán)。

其優(yōu)點顯而易見:

首先,數(shù)據(jù)可以不上傳云端,服務(wù)提供商看不到用戶數(shù)據(jù),這能提高用戶數(shù)據(jù)隱私性。因此也就不必在隱私和功能之間權(quán)衡,可以兩者兼有。這一點在當下數(shù)據(jù)隱私越來越受到重視的情況下特別重要。

其次,延時降低。如果將用戶所有數(shù)據(jù)都上傳到云端,且服務(wù)本身也是從云端進行反饋,那么在網(wǎng)速較慢的環(huán)境下,網(wǎng)絡(luò)延時將會極大降低用戶體驗。而聯(lián)邦學習加持下的服務(wù)則不會出現(xiàn)這種情況,因為服務(wù)本身就來自于本地。

同時,聯(lián)邦學習的出現(xiàn),也使得用戶從人工智能的旁觀者,真正轉(zhuǎn)變?yōu)槿斯ぶ悄馨l(fā)展的參與者。

To B人工智能的困局:隱私保護、小數(shù)據(jù)、數(shù)據(jù)孤島

其實Google的聯(lián)邦學習,并沒有解決企業(yè)之間數(shù)據(jù)孤島問題。

Google的方案可以理解為To C的,應用在用戶的手機端,是同一家公司根據(jù)內(nèi)部對To C業(yè)務(wù)的需求所產(chǎn)生的一套用以解決數(shù)據(jù)隱私問題的方案。

而楊強教授牽頭建設(shè)的聯(lián)邦學習生態(tài)更多是To B模式,用以解決企業(yè)與企業(yè)之間的數(shù)據(jù)孤島難題,是一個更開放的類似企業(yè)聯(lián)盟的生態(tài)。

總體而言,Google的聯(lián)邦學習方案是橫向的,它使用的數(shù)據(jù)特征相同,因此只需要建同一個模型。

而新方案則是縱向聯(lián)邦學習,不同企業(yè)之間的數(shù)據(jù)特征往往不同,所以即便面向的用戶是相同的場景,整個技術(shù)方案和實施框架也不一樣。

楊強教授曾在雷鋒網(wǎng)承辦的CCF-GAIR 2019「AI 金融專場」的大會報告中指出,利益驅(qū)使下,各家公司們過去并不愿意把數(shù)據(jù)拿出來和其他公司交換。除了少數(shù)幾家擁有海量用戶、具備產(chǎn)品和服務(wù)優(yōu)勢的「巨無霸」公司外,大多數(shù)企業(yè)難以以一種合理合法的方式跨越人工智能落地的數(shù)據(jù)鴻溝,或者對于他們來說需要付出巨大的成本來解決這一問題。

此外,監(jiān)管當局已經(jīng)采取頗為嚴格的隱私保護措施。

去年5月份歐洲首先提出數(shù)據(jù)隱私保護法GDPR,對人工智能機器的使用、數(shù)據(jù)的使用和數(shù)據(jù)確權(quán),都提出非常嚴格的要求,以至于Google被多次罰款,每次金額都在幾千萬歐元左右。

因為GDPR其中一則條文就是數(shù)據(jù)使用不能偏離用戶簽的協(xié)議,也許用戶的大數(shù)據(jù)分析,可以用作提高產(chǎn)品使用體驗,但是如果公司拿這些數(shù)據(jù)訓練對話系統(tǒng),就違反了協(xié)議。如果公司要拿這些數(shù)據(jù)做另外的事,甚至拿這些數(shù)據(jù)和別人交換,前提必須是一定要獲得用戶的同意。

另外還有一些嚴格的要求,包括可遺忘權(quán),就是說用戶有一天不希望自己的數(shù)據(jù)用在你的模型里了,那他就有權(quán)告訴公司,公司有責任把該用戶的數(shù)據(jù)從模型里拿出來。這種要求不僅在歐洲,在美國加州也實行了非常嚴格的類似的數(shù)據(jù)保護法。

中國對數(shù)據(jù)隱私和保護也進行了非常細致的研究,從2009年到2019年有一系列動作,而且越來越嚴格,經(jīng)過長期的討論和民眾的交互,可能近期會有一系列正式的法律出臺。

其次,我們的數(shù)據(jù)大部分是小數(shù)據(jù):沒有好的模型就無法做到好的自動化,好的模型往往需要好的大數(shù)據(jù),但往往高質(zhì)量、有標簽的數(shù)據(jù)都是小數(shù)據(jù)。

而且數(shù)據(jù)都在變化,每個階段的數(shù)據(jù)和上一個階段的數(shù)據(jù)有不同的分布,也許特征也會有不同。實時標注這些數(shù)據(jù)想形成好的訓練數(shù)據(jù)又需要花費很多人力。

當前,大多數(shù)應用領(lǐng)域均存在數(shù)據(jù)有限且質(zhì)量較差的問題,在某些專業(yè)性很強的細分領(lǐng)域(如醫(yī)療診斷)更是難以獲得足以支撐人工智能技術(shù)實現(xiàn)的標注數(shù)據(jù)。

三是“對抗學習”的挑戰(zhàn)。即針對人工智能應用的作假,比如人臉識別就可以做假,針對面部進行合成。如何應對這種“對抗學習”的挑戰(zhàn),這是金融場景下人工智能安全領(lǐng)域的重大題目。

不僅金融場景,在法律場景也是這樣,醫(yī)療場景更是如此。每個醫(yī)院的數(shù)據(jù)集都是有限的,如果不能把這些數(shù)據(jù)打通,每個數(shù)據(jù)集就只能做簡單的模型,也不能達到人類醫(yī)生所要求的高質(zhì)量的疾病識別。

在這樣的困境中,不少人覺得人工智能的冬天也許又一次到來了——但在聯(lián)邦學習研究者看來,這正是一次技術(shù)躍遷的良機。

聯(lián)邦學習:橫向、縱向、遷移

楊強這樣形容聯(lián)邦學習的精髓:

我們每個人的大腦里都有數(shù)據(jù),當兩個人在一起做作業(yè)或者一起寫書的時候,我們并沒有把兩個腦袋物理性合在一起,而是兩個人用語言交流。所以我們寫書的時候,一個人寫一部分,通過語言的交流最后把合作的文章或者書寫出來。

我們交流的是參數(shù),在交流參數(shù)的過程中有沒有辦法保護我們大腦里的隱私呢?是有辦法的,這個辦法是讓不同的機構(gòu)互相之間傳遞加密后的參數(shù),以建立共享的模型,數(shù)據(jù)可以不出本地。

從簡單定義來講,聯(lián)邦學習是在本地把本地數(shù)據(jù)建一個模型,再把這個模型的關(guān)鍵參數(shù)加密,這種數(shù)據(jù)加密傳到云端也沒有辦法解密,因為他得到的是一個加密數(shù)據(jù)包,云端把幾千萬的包用一個算法加以聚合,來更新現(xiàn)有的模型,然后再把更新后的模型下傳。重要的是,整個過程中Server云端不知道每個包里裝的內(nèi)容。

之前這種做法比較困難,但同態(tài)加密的出現(xiàn)讓運算效率取得了重大提升,即加密算法可以隔著加密層去進行運算。不過需要注意的是這只是2C的例子,是云端面對大用戶群的例子。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

它可以把多項式的加密,分解成每項加密的多項式,A+B的加密,變成A的加密加B的加密,這是非常偉大的貢獻。因為這樣就使得我們可以拿一個算法,在外面把算法給全部加密,加密的一層可以滲透到里面的每個單元。能做到這一點就能改變現(xiàn)有的機器學習的教科書,把任何算法變成加密的算法。

對于橫向、縱向和遷移聯(lián)邦學習,楊強給出了如下解釋:

  • 橫向聯(lián)邦學習

橫向聯(lián)邦學習是每行過來都可以看作一個用戶的數(shù)據(jù)。按照用戶來分,可以看作一、二、三個手機,它叫橫向?qū)W習。還有一個原因是它們的縱向都是特征,比如手機型號、手機使用時間、電池以及人的位置等,這些都是特征。他們的特征都是一樣的,樣本都是不一樣的,這是橫向聯(lián)邦學習。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

主要做法是首先把信用評級得到,然后在加密狀態(tài)下做聚合,這種聚合里面不是簡單的加,而是很復雜的加,然后把征信模型再分發(fā)下來。

  • 縱向聯(lián)邦學習

大家的Feature不一樣,一個機構(gòu)紅色、一個機構(gòu)藍色,大家可以想象兩個醫(yī)院,一個病人在紅色醫(yī)院做一些檢測,在藍色的醫(yī)院做另外一些檢測,當我們知道這兩個醫(yī)院有同樣一群病人,他們不愿意直接交換數(shù)據(jù)的情況下,有沒有辦法聯(lián)合建模?

它們中間有一個部門墻,我們可以在兩邊各自建一個深度學習模型,建模的時候關(guān)鍵的一步是梯度下降,梯度下降我們需要知道幾個參數(shù),上一輪參數(shù)、Loss(gradients)來搭配下一個模型的weight參數(shù)。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

這個過程中我們需要得到全部模型的參數(shù)級,這時候需要進行交換,交換的時候可以通過同態(tài)加密的算法,也可以通過secure multiparty computation,這里面有一系列的算法,兩邊交換加密參數(shù),對方進行更新,再次交換參數(shù),一直到系統(tǒng)覆蓋。

  • 遷移聯(lián)邦學習

它們在特征上一樣,或者在特征上不一樣,但是他們的用戶有些是有交集的,當用戶和特征沒有交集時,我們退一步想,我們可以把他們所在的空間進行降維或者升維,把他們帶到另外的空間去。

在另外的空間可以發(fā)現(xiàn)他們的子空間是有交互的,這些子空間的交互就可以進行遷移學習。雖然他們沒有直接的特征和用戶的重合,我們還是可以找到共性進行遷移學習。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

總的來說,聯(lián)邦學習的這種思想,事實上并不僅僅適用于設(shè)備用戶數(shù)據(jù)的隱私保護和模型更新。

我們將設(shè)備用戶抽象來看,視作數(shù)據(jù)的擁有者,可以是手機持有者,也可以是公司、醫(yī)院、銀行等;而服務(wù)器或云端視作模型共享綜合平臺。

作為一種新的學習范式,聯(lián)邦學習具有以下特點:

  • 在聯(lián)邦學習的框架下,各參與者地位對等,能夠?qū)崿F(xiàn)公平合作;

  • 數(shù)據(jù)保留在本地,避免數(shù)據(jù)泄露,滿足用戶隱私保護和數(shù)據(jù)安全的需求;

  • 能夠保證參與各方在保持獨立性的情況下,進行信息與模型參數(shù)的加密交換,并同時獲得成長;

  • 建模效果與傳統(tǒng)深度學習算法建模效果相差不大;

  • 聯(lián)邦學習是一個「閉環(huán)」的學習機制,模型效果取決于數(shù)據(jù)提供方的貢獻。

這樣一個直接命中人工智能發(fā)展痛點的新技術(shù),也開始進入到各大應用場景當中。

聯(lián)邦學習與金融信貸風控

在眾多金融業(yè)務(wù)環(huán)節(jié)中,飽受數(shù)據(jù)隱私和孤島效應困擾的信貸風控,無疑是實現(xiàn)聯(lián)邦學習落地的最佳場景之一。

微眾銀行聯(lián)邦學習團隊指出,基于聯(lián)邦學習的信貸風控解決方案,能夠“在建模過程中,雙方交換梯度值,類似于方向向量的概念,交換的是中間變量,不是原始數(shù)據(jù)。同時對這個中間變量還進行了同態(tài)加密,所以數(shù)據(jù)并不會出庫,保證數(shù)據(jù)源和應用方的數(shù)據(jù)安全?!?/p>

聯(lián)邦學習所采用的局部數(shù)據(jù)收集和最小化原則,將降低傳統(tǒng)中心化機器學習方法帶來的一些系統(tǒng)性隱私風險和成本,這樣的效果也正契合了信貸風控的提升方向。

總的來說,這一做法是試圖通過聯(lián)邦數(shù)據(jù)網(wǎng)絡(luò)進行信貸風控增強,在貸前環(huán)節(jié)利用更豐富的數(shù)據(jù)信息綜合判斷客戶風險,幫助信貸公司過濾信貸黑名單或明顯沒有轉(zhuǎn)化的貸款客戶,進一步降低貸款審批流程后期的信審成本。

在貸中,采用聯(lián)邦學習的解決方案主要提供根據(jù)用戶放款后的行為變化進行的風險評估產(chǎn)品,幫助放貸機構(gòu)進行調(diào)額調(diào)價的輔助決策。

對于貸后風險處置,方案則提供可以根據(jù)客戶的行為進行催收預測的產(chǎn)品,幫助放貸機構(gòu)進行催收的策略評估,調(diào)整催收策略,提升催收效率。

微眾聯(lián)邦學習團隊表示,在具體實施上,解決方案會先行使用聯(lián)邦學習云服務(wù)進行業(yè)務(wù)冷啟動,并通過建立業(yè)務(wù)及AI模型閉環(huán),小樣本建模,后期持續(xù)迭代優(yōu)化模型的方式,實現(xiàn)項目數(shù)字化,便于消費金融業(yè)務(wù)方及信貸合作方能夠持續(xù)積累業(yè)務(wù)數(shù)據(jù)優(yōu)化聯(lián)邦模型。

以微眾銀行與合作伙伴公司的情況為例,微眾的特點是有很多用戶Y,數(shù)據(jù)集可分為X和Y,X是用戶的特征和行為,Y是最后的結(jié)論,我們在銀行的結(jié)論是信用逾期是否發(fā)生,這是逾期概率,合作的伙伴企業(yè)可能是互聯(lián)網(wǎng)企業(yè)或者是賣車的或者賣保險,不一定有結(jié)論數(shù)據(jù)Y,但是它有很多行為信息X。

現(xiàn)在這兩個領(lǐng)域?qū)τ谕慌脩羧绻?,屬于縱向聯(lián)邦學習,建立縱向聯(lián)邦學習的應用,最后就取得了很好的效果,AUC指標大為上升,不良率大為下降。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

通過合法合規(guī)的多維度聯(lián)邦數(shù)據(jù)建模,風控模型效果約可提升12%,相關(guān)企業(yè)機構(gòu)有效節(jié)約了信貸審核成本,整體成本預計下降5%-10%,并因數(shù)據(jù)樣本量的提升和豐富,風控能力進一步增強。

對合作方信貸機構(gòu)而言,信貸風控能力也大幅度提升。

通過初審篩選掉黑名單和不可能轉(zhuǎn)化貸款客戶,在“信審漏斗第一步”減去無效客戶,從而在信貸預審階段使單接口調(diào)用成本預計節(jié)省20-30%,有效控制了信貸審核成本。

聯(lián)邦學習與醫(yī)療AI

作為醫(yī)療AI成長道路不可或缺的“糧食”,數(shù)據(jù)一直是醫(yī)療AI落地的“攔路虎”。

醫(yī)療健康數(shù)據(jù)領(lǐng)域長期存在“信息孤島”問題,不同地區(qū)甚至不同醫(yī)院間的醫(yī)療數(shù)據(jù)沒有互聯(lián),也沒有統(tǒng)一的標準。與此同時,數(shù)據(jù)安全問題也存在著巨大挑戰(zhàn)。

就在昨日,騰訊天衍實驗室公開宣布,其聯(lián)合微眾銀行研發(fā)的醫(yī)療聯(lián)邦學習,在腦卒中預測的應用上,準確率在相關(guān)數(shù)據(jù)集中高達80%。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

聯(lián)邦學習可以繞過醫(yī)療機構(gòu)之間的信息壁壘,不考慮將各自數(shù)據(jù)做合并,而是通過協(xié)議在其間傳遞加密之后的信息,該加密過程具有一定的隱私保護機制,保證加密后的信息不會產(chǎn)生數(shù)據(jù)泄露。各個醫(yī)療機構(gòu)通過使用這些加密的信息更新模型參數(shù),從而實現(xiàn)在不暴露原始數(shù)據(jù)的條件下使用全部患者數(shù)據(jù)的訓練過程。

舉例來說,假設(shè)醫(yī)院 A 和 B 想聯(lián)合訓練一個腦卒中疾病預測模型,兩個醫(yī)院各自掌握科研病例數(shù)據(jù),此外,醫(yī)院 B 還擁有模型需要預測的標簽數(shù)據(jù)如腦卒中發(fā)病標簽。出于數(shù)據(jù)隱私保護和安全考慮,醫(yī)院A和 B無法直接進行數(shù)據(jù)交換。聯(lián)邦學習系統(tǒng)則可以利用基于加密的患者樣本對齊技術(shù),在醫(yī)院 A 和 B 不公開各自數(shù)據(jù)的前提下確認雙方的共有患者,并且不暴露不互相重疊的患者,以便聯(lián)合這些用戶的特征進行建模,在確定共有用戶群體后,就可以利用這些數(shù)據(jù)訓練疾病預測模型。

在這樣的一種方式下,聯(lián)邦學習技術(shù)就實現(xiàn)了保護不同醫(yī)院數(shù)據(jù)隱私的疾病預測模型,而這項技術(shù)也在疾病預測領(lǐng)域落地,天衍實驗室和微眾銀行成功構(gòu)建了一個“腦卒中發(fā)病風險預測模型”。

通過使用來自就診記錄數(shù)量TOP5的醫(yī)院真實就診數(shù)據(jù)驗證,聯(lián)邦學習模型和集中訓練模型表現(xiàn)幾乎一致,在腦卒中預測模型中的準確率達到80%,僅比集中訓練模型準確率降低1%。

同時,聯(lián)邦學習技術(shù)顯著提升了不同醫(yī)院的獨立模型效果,特別是,對于兩家腦卒中確診病例數(shù)量較少的醫(yī)院而言,聯(lián)邦學習分別提升其準確率10%和20%以上。

除疾病預測模型外,雙方還會圍繞聯(lián)邦學習在醫(yī)療大數(shù)據(jù)領(lǐng)域的應用落地進行更多維度的合作,包括醫(yī)??刭M、合理診斷、精準醫(yī)療等領(lǐng)域,例如通過聯(lián)邦學習助力電子健康卡實現(xiàn)保護用戶隱私建模等等,進而促進醫(yī)療健康產(chǎn)業(yè)發(fā)展,提升醫(yī)療服務(wù)的質(zhì)量。

而在2019年醫(yī)學影像分析頂會MICCAI中,聯(lián)邦學習在醫(yī)學影像上的應用正式進入研究者的視野。

英偉達與倫敦國王學院以及一家法國初創(chuàng)公司Owkin合作,在新成立的倫敦醫(yī)學影像與人工智能中心中應用了聯(lián)邦學習技術(shù)。

由于醫(yī)療數(shù)據(jù)的隱私規(guī)定,在集中數(shù)據(jù)湖中收集和共享患者數(shù)據(jù)通常是不可行的。這就給訓練機器學習算法帶來了挑戰(zhàn),例如深度卷積網(wǎng)絡(luò)通常需要大量不同的訓練示例。

聯(lián)邦學習通過將代碼帶給患者數(shù)據(jù)所有者,并且只在他們之間共享中間模型訓練的信息,從而避開了這一困難。盡管適當?shù)鼐酆线@些模型可以獲得更高精度的模型,但共享的模型可能會間接泄漏本地訓練數(shù)據(jù)。

這項技術(shù)論文提出了一個用于腦腫瘤分割的聯(lián)邦學習系統(tǒng),探討了在聯(lián)邦學習系統(tǒng)中應用微分隱私技術(shù)來保護病人數(shù)據(jù)的可行性。

此次試驗是基于取自BraTS 2018數(shù)據(jù)集的腦腫瘤分割數(shù)據(jù)實施的,BraTS 2018 數(shù)據(jù)集包含有285位腦腫瘤患者的MRI掃描結(jié)果。

研究人員表示:“聯(lián)邦學習在無需共享患者數(shù)據(jù)的情況下,即可實現(xiàn)協(xié)作與分散化的神經(jīng)網(wǎng)絡(luò)訓練。各節(jié)點負責訓練其自身的本地模型,并定期提交給參數(shù)服務(wù)器。服務(wù)器不斷累積并聚合各自的貢獻,進而創(chuàng)建一個全局模型,分享給所有節(jié)點?!?/p>

研究人員進一步解釋道,雖然聯(lián)邦學習可以保證極高的隱私安全性,但通過模型反演,仍可以設(shè)法使數(shù)據(jù)重現(xiàn)。為了幫助提高聯(lián)邦學習的安全性,研究人員研究試驗了使用ε-差分隱私框架的可行性。這個框架是一種正式定義隱私損失的方法,可以借助其強大的隱私保障性來保護患者與機構(gòu)數(shù)據(jù)。

NVIDIA團隊解釋到,聯(lián)邦學習有望有效聚合各機構(gòu)從私有數(shù)據(jù)中本地習得的知識,從而進一步提高深度模型的準確性、穩(wěn)健性與通用化能力。

英偉達與倫敦國王學院研究人員在MICCAI上介紹了聯(lián)邦學習技術(shù)的更多實施細節(jié):

深度學習神經(jīng)網(wǎng)絡(luò)在多種醫(yī)學應用中都顯示出很好的效果,但它高度依賴于訓練數(shù)據(jù)的數(shù)量和多樣性。在醫(yī)學成像方面,這構(gòu)成了一種特殊困難:例如,由于患者數(shù)量或病理類型的原因,所需的訓練數(shù)據(jù)可能無法在單個機構(gòu)中獲得。同時,由于醫(yī)療數(shù)據(jù)隱私規(guī)定,在集中數(shù)據(jù)湖中收集和共享患者數(shù)據(jù)通常是不可行的。

聯(lián)邦學習則允許在不共享患者數(shù)據(jù)的情況下對DNN進行合作和分布式訓練。每個節(jié)點都訓練自己的本地模型,并定期將其提交給參數(shù)服務(wù)器。服務(wù)器收集并聚合各個節(jié)點模型以生成一個全局模型,然后與所有節(jié)點共享。

需要注意的是,訓練數(shù)據(jù)對每個節(jié)點都是私有的,在學習過程中不會被共享。只共享模型的可訓練權(quán)重或更新,從而保持患者數(shù)據(jù)的私密性。因此,聯(lián)邦學習簡潔地解決了許多數(shù)據(jù)安全挑戰(zhàn),將數(shù)據(jù)放在需要的地方,并支持多機構(gòu)協(xié)作。

論文也披露了客戶端模型訓練過程、服務(wù)器端模型聚合過程、部署在客戶端的隱私保護模塊,以及聯(lián)邦學習實驗項目的配置與實驗結(jié)果。研究人員表示,未來他們將探索用于醫(yī)學圖像分析任務(wù)的微分隱私SGD算法。

聯(lián)邦學習與安防

安防,是目前計算機視覺變現(xiàn)最快的領(lǐng)域。

宇視科技CEO張鵬國曾在接受雷鋒網(wǎng)專訪時提到,“當前AI安防落地能力與用戶需求存有較大差距,前者還需面對數(shù)據(jù)隱私保護與安全管控、低成本、流程再造、組織變革等挑戰(zhàn)?!?nbsp;

具體來看,最為核心的痛點是,數(shù)據(jù)不夠多元,且異常封閉。

中國擁有龐大的人口數(shù)量、用戶量及圖像采集點,相關(guān)企業(yè)得到數(shù)據(jù)之后經(jīng)過篩選、過濾、疊加、組合,會對自身算法效果有階段性提升。

但這類提升屬于個人式的、微乎其微式的。

每個安防廠商所建設(shè)的AI系統(tǒng)類似一個又一個的“煙囪”,“煙囪式”架構(gòu)也就是垂直的體系結(jié)構(gòu)。

每一個IT系統(tǒng)都有自己的存儲和設(shè)備,以及獨立的管理工具和數(shù)據(jù)庫,不同的系統(tǒng)不能共享資源、不能交付和訪問,形成了資源孤島和信息孤島。

由于不同企業(yè)的數(shù)據(jù)庫模型設(shè)計和針對的目標有所不同,他們也無法直接交換、共享模型。

即便相關(guān)企業(yè)間的數(shù)據(jù)庫可以融合,但受制于隱私、安全等問題,也絕不可如此為之。

有場景缺數(shù)據(jù)、有數(shù)據(jù)難共享。這是包括AI安防在內(nèi)的諸多行業(yè)目前存在的普遍問題,也是阻礙AI普惠的最大痛點。

一方面,AI在安防行業(yè)的探索才剛剛開始;另一方面,做好AI所必須的數(shù)據(jù)養(yǎng)料有限且質(zhì)量較差,不同數(shù)據(jù)源之間存在難以打破的壁壘。

除了少數(shù)幾家擁有海量用戶、具備產(chǎn)品和服務(wù)優(yōu)勢的巨無霸企業(yè)外,大多數(shù)中小型AI安防企業(yè)難以以一種合理、合法的方式跨越人工智能落地的數(shù)據(jù)鴻溝,或者需要付出巨大的成本來解決這一問題。

多位學術(shù)界、工業(yè)界領(lǐng)頭人指出:從目前的研究進展來看,“聯(lián)邦學習”技術(shù)可能是解決以上問題的最佳選擇。

譬如A廠商有校園數(shù)據(jù)、B廠商有工廠數(shù)據(jù)、C廠商有社區(qū)數(shù)據(jù),且這三家廠商都使用了聯(lián)邦學習技術(shù)。

從業(yè)務(wù)層面出發(fā),A、B、C這三家廠商便直接獲得了兩種能力:1、最快速地優(yōu)化自身業(yè)務(wù);2、最快速地拓展新業(yè)務(wù)。

最快速地優(yōu)化自身業(yè)務(wù)表現(xiàn)在,平臺每天會有若干個類似A廠商的企業(yè)向平臺輸入加密后的數(shù)據(jù)模型,而這些數(shù)據(jù)模型中有A廠商非常缺乏的其他數(shù)據(jù)信息,而A廠商便可根據(jù)這些數(shù)據(jù)去更新自己的算法模型。

最快速地拓展新業(yè)務(wù)表現(xiàn)在,A、B、C每家廠商都有各自構(gòu)建好的模型,通過匯總?cè)サ玫礁蟮臄?shù)據(jù)模型,在不流通數(shù)據(jù)的情況下得到數(shù)據(jù)流通的最好效果,通過資源互補可以在最短時間內(nèi)安全地獲得對方的能力,去拓展新業(yè)務(wù)。

從隱私保護層面來看,通常智能攝像頭產(chǎn)生的數(shù)據(jù)會被上傳到后臺服務(wù)器中,然后由部署在服務(wù)器上的神經(jīng)網(wǎng)絡(luò)模型根據(jù)收集到的大量數(shù)據(jù)進行訓練得到一個模型,服務(wù)商根據(jù)這個模型來為用戶提供服務(wù)。

這是一種集中式的模型訓練方法,這種方式很難保證數(shù)據(jù)隱私安全。

而聯(lián)邦學習就不再是讓數(shù)據(jù)發(fā)送到后臺,而是在每個企業(yè)自己的服務(wù)器上進行訓練,并加密上傳訓練模型,后臺會綜合成千上萬的用戶模型后再反饋給用戶改進方案。

其中一個典型應用案例,就是微眾銀行與極視角聯(lián)合推出的中國首個視覺聯(lián)邦學習系統(tǒng)。

以視頻攝像頭中的火焰識別為例,AI工程師們可能千辛萬苦訓練了一個火焰檢測的識別模型,想要用在監(jiān)控攝像頭中,識別是否有燃燒現(xiàn)象,從而對火災發(fā)生的可能性進行分析,實現(xiàn)火災預警。

原有的AI算法可以比較準確地識別有明顯大面積燃燒和明火發(fā)生的常見場景。然而,遇到打火機點出的火焰時,攝像頭就有些“懵”了。

如果想讓模型增強識別能力,傳統(tǒng)的AI訓練要求適用方能夠提供一些數(shù)據(jù)樣本,而這又出現(xiàn)了因網(wǎng)絡(luò)帶寬導致的算法準確率不高及數(shù)據(jù)隱私等問題。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

圖片來源:fedai.org

在聯(lián)邦視覺系統(tǒng)中,依托本地建模,在保證各方數(shù)據(jù)不出本地的情況下,即可提升AI算法準確率。

在一次公開分享中,微眾銀行AI部門副總經(jīng)理陳天健透露,“在‘聯(lián)邦視覺系統(tǒng)’項目中,通過聯(lián)邦學習技術(shù),整體模型的性能提升了15%,且模型效果無損失,極大地提升了建模效率?!?/p>

聯(lián)邦學習的未知之地

信貸風控、醫(yī)療和安防的應用,都只是聯(lián)邦學習賦能各領(lǐng)域的冰山一角。

未來包括金融、醫(yī)療、安防、零售、政務(wù)、工業(yè)等各行各業(yè)、各個場景都可以依據(jù)此技術(shù)實現(xiàn)降本增效、開源節(jié)流。

聯(lián)邦學習的生態(tài)建設(shè)也在同步進行,只有多方合作、多方認可下的聯(lián)邦學習才有望實現(xiàn)效益最大化。

如果你也想?yún)⑴c到人工智能學習和落地的最前沿,了解聯(lián)邦學習的最新研究成果與應用情況,請持續(xù)關(guān)注楊強教授的公開課全文整理回顧,以及《聯(lián)邦學習系列公開課》的其他課程。

聯(lián)邦學習誕生1000天的真實現(xiàn)狀丨萬字長文

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說